人 文 社 科 领 域 中 文通 用 大 模型 性 能 评测 * 


DERI HARE? 刘畅 所 沈 思 3 王 东 波 12 

1 南京 农业 大 学 信息 管理 学 院 ”南京 ”210095 

“南京 农业 大 学 人 文 与 社会 计算 研究 中 心 ”南京 ”210095 
3 南京 理工 大 学 经 济 管理 学 院 ”南京 ”210094 


搞 要 : [目的 /意义 ] 本 文 以 人 文科 
文本 两 个 方面 入 手 进 行人 文 社 科 领 域 模 型 怕 
基准 , 供 人 文 社 科 相关 领域 研究 人 员 参 考 . [方法 /过 程 ] 设 计 了 7 个 人 文 社 科 领域 
王 务 并 选取 对 应 指标 , 在 此 基础 上 , 选取 了 当前 开源 且 性 能 较 优 的 通 月 
大 模型 , 通过 调用 本 地 模型 以 问答 形式 完成 领域 化 任务 ， 
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上 科 领 域 为 出 发 点 ， 从 人 文 社 科 领域 基础 知识 与 人 文 社 科学 术 
能 比 对 。 旨 在 为 人 文 社 科 


领域 提供 一 份 体系 化 的 


用 领域 中 文 
并 选取 相关 指标 对 其 在 人 文 社 科 领 


测 结果 表明 ,在 本 文选 取 的 开源 模型 中 ,无论 是 基 


差 ， 此 外 ， 大 多 数 情况 下 ， 相 较 于 基 座 模型 ， 对 话 模 型 
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领域 知识 


随 着 越 来 越 多 的 互联 网 公司 和 科 和 
型 被 推出 , 社会 各 界 都 意识 到 了 这 场 人 工 智 能 
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Ut, Baichuan2 紧 随 其 后 ，InternLM RŽ, Atom 表现 最 


现 出 了 更 加 优越 的 性 能 。 


团队 投身 于 AIGC 的 浪潮 中 , 大 量 开源 可 商用 的 大 语 
革命 带 来 的 机 遇 , 纷纷 加 入 到 大 模型 
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中 。 经 过 了 长 达 半 个 世纪 的 发 展 ， 人 文 社 科 与 计算 机 科学 已 经 形成 了 深度 的 交叉 融合 ， 人 文 


计算 、 社 会 计算 等 交叉 学 科 展现 
由 在 将 计算 机 科学 的 思想 


通用 
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领域 数据 对 已 有 模型 进行 增 量 训练 , 使 模型 在 保持 强大 语 
此 可 见 ， 基 座 模 型 的 选取 对 于 最 终 模 型 性 能 
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构建 垂直 大 模 


出 宽广 的 发 展 前 景 ， 作 为 计算 机 与 人 文 社 科 的 交叉 融合 ， 其 
理论 应 用 于 人 文 社 科 各 个 领域 ， 丰 富 人 文 社 科 和 
着 人 工 智 能 技术 的 不 断 推进 ， 人文 社 科 与 计算 机 科学 的 交叉 融合 也 迈 入 了 新 的 阶段 ， 人文 社 
科 领 域 化 的 数据 、 理 论 与 人 工 智 能 技术 本 
The 
练 ， 而 随 着 大 模型 研究 
团队 可 以 结合 特 


RARA, fpi 


必 将 带 来 两 个 领域 的 协同 发 展 。 
牛 设备 、 数 据 的 高 需求 ， 当 前 绝 大 多 数 科研 团队 和 
的 发 展 ， 模 型 训练 流程 逐渐 趋同 ,开源 大 模型 的 推 
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民 难 完成 从 零 开始 的 


垂直 领域 模型 的 构建 ,往往 使 用 


的 浪潮 ,其 中 也 包含 针对 垂直 领域 的 评 涡 
对 于 大 部 分 人 文 社 科 领域 学 者 来 说 , 从 大 
困难 ,无 论 是 大 语言 模型 在 人 文 社 科 领域 的 应 用 还 是 人 文 
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学 者 对 新 时 代 新 技术 的 应 用 ， 完 备 的 记 
宽泛 但 有 其 内 在 特征 的 领域 开展 


测 体系 必 不 可 少 。 
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此 ， 本 文 针对 人 文 衬 
FP 文 开源 大 模型 评测 , 旨 在 为 人 文 社 科 领 域 提 供 


EF 科 这 一 较为 
一 套用 于 评 


测 大 模型 的 基准 , 供 相 关 领 域 研究 人 员 参 考 。 对 于 无 计算 机 基础 的 人 文学 者 来 说 ， 本 文 可 以 


为 其 了 解 、 使 用 大 语言 模型 提供 量化 参考 ,而 对 于 计算 人 文 研究 人 员 来 说 ， 也 可 以 通过 本 文 
的 评测 结果 选择 适合 的 大 语言 模型 开展 人 文 社 科 领 域 的 大 模型 研究 。 
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2.1 人 文 社 科 与 人 工 智 能 的 交叉 融合 


数字 人 文 这 一 新 兴学 科 ， 在 信息 资源 管 
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当前 的 学 科 发 展 进行 了 梳 到 


学 科 的 发 展 状况 。 计 入 


EE， 以 计算 文学 、 计 算 语 言 学 、 计 
机 技术 与 众多 人 文学 科 相 融合 , 数据 驱动 的 有 
泛 应 用 ， 产 生 了 一 系列 以 人 文学 科 为 基础 的 实证 性 研究 。 王 东 波 等 外 基于 
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杂 信 息 进行 知识 重组 和 形式 再 造 , 构建 了 以 史书 多 维 知识 库 和 知识 可 视 化 平 
阅读 史书 的 障碍 。 喻 雪 塞 等 中 将 神经 网 络 与 机 器 阅读 理解 模式 相 融 合 ， 
纪 传 体 史 书 语 料 上 进行 了 训练 和 验 订 
已 经 成 为 非常 热门 的 研究 内 容 , 以 人 了 
能 技术 结合 的 典范 。 除 此 之 外 ， 人 金融、 法 


张 瑞 祥 等 四 以 计算 法 学 学 科 发 展 路 径 为 底层 逻辑 , 结合 人 工 智 
法 学 研究 范式 的 变迁 和 现状 。 梁 祝 


Sits 


构 内 容 特征 构建 了 判决 文书 
生息 技术 的 更 新 迭代 为 人 文 社会 科学 领域 注入 新 的 活力 , 不 断 推 动人 文 社 科 研究 的 进步 
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与 发 展 。 当 前 ， 大 语言 模型 技术 使 
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F: 科 领域 的 适用 性 进行 了 探究 。 为 更 好 地 适应 人 文 补 


与 个 性 化 任务 需求 ,产业 界 与 学 术 界 推出 了 更 多 面向 人 文 衬 


， 在 金融 领域 ，W. Shijie 等 LI 基于 大 批量 的 4 
4 金融 领域 大 模型 Bloomberggpt， 填 补 了 金融 领域 大 模型 的 空白 。Y. Hongyang 等 由 提出 了 
EAS, 通过 开源 数据 微调 提升 模型 领域 能 力 而 降低 训练 成 本 ,为 金 
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外 ， HAUS, 医疗 118,131、 


总 的 来 说 ， 人 工 智 能 技术 已 经 应 
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E 动 古籍 活化 利用 成 为 了 人 文学 科 与 人 工 知 
社会 科学 与 人 工 智能 的 交叉 融合 也 越发 紧密 ， 
能 技术 在 法 律 领域 的 应 月 


等 中 利用 类 新 闻 事实 文本 ， 结 合法 律 判决 文书 的 结 
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掀起 了 研究 热潮 。 黄 水 清 等 中 对 计算 人 文 
史学 等 为 例 论述 了 “ 计 
究 范式 在 人 文学 科 中 广 
四 库 全 书 数据 和 
任务 中 表 
练 模型 相 
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得 人 工 智能 实现 了 阶段 性 跨越 ， 在 大 模型 时 代 下 ,已 有 
LF: 科 领域 


SRX A, TET 50B 参数 


E 波 助 澜 。 后 续 的 PIXIUU2、InvestLM03I 等 同样 是 大 语 
的 重要 尝试 。 在 法 律 领域 ，LawGPT_zhti41 使 用 ChatGPT 清洗 开源 法 律 数据 入 
的 开源 大 模型 。ChatLawt5J 则 基于 Ziya-13B 等 基 座 模型 ， 使 用 大 量 法 律 
法 律 论 坛 、 法 条 、 法 考题 、 判 决 文书 等 原始 文本 构造 的 对 话 数据 进行 模型 构建 。 除 此 之 
EE 子 商务 ?0 等 领域 均 有 相应 的 大 模型 成 果 ， 为 专业 场景 下 的 应 


模型 的 构建 变 得 愈 发 重要 ， 领 域 数 据 集 的 构建 成 为 人 文科 
础 。 特 定 领 域 数 据 集 构建 ， 必 然 需 
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信息 资源 管理 的 重要 研究 内 容 ， 大 模型 


By 


LB SE E MURIJA F 


= 
A 


言 模型 在 金融 领域 


长， 从 而 构建 了 


新 


] 于 人 文 社 科 的 各 个 领域 。 大 模型 时 代 下 ,垂直 领域 大 


定 领域 研究 人 员 的 参与 ， 而 数据 的 
的 训练 、 微 调 又 涉及 计算 机 科学 的 


模型 构建 必然 涉及 到 跨 专 业 、 跨 领域 的 深度 合作 与 交流 。 


2.2 大 模型 评测 相关 友 


当前 大 模型 评测 主要 可 以 分 为 几 个 方面 
大 的 语言 能 力 ， 在 少 样本 甚至 零 样本 眉 
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FE 科 领 域 深 入 开展 大 模型 研究 的 基 
整 Æ 存 渚 流程 是 


相关 理论 技术 ， 大 


4 况 下 即 可 胜任 大 多 数 自然 语言 处 型 


于 预 训练 阶段 学 习 的 大 上 


时 数据 ， 大 模型 拥 


强大 的 知识 储备 ， 可 以 应 对 
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令 人 称道 的 就 是 其 强 
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作为 智能 代理 工具 等 。 
模型 语言 能 力 评 六 


如 金融 、 法 律 、 医 疗 等 领域 相关 问答 和 一 些 常识 问答 ,安全 性 ，2023 年 7 月 发 布 的 生成 式 
人 工 智能 服务 管理 暂行 办 法 中 明确 规定 ， 提 供 、 使 用 生成 式 人 工 智 能 ， 应 当 遵守 法 律 、 行 政 
重 社会 公德 和 伦理 道德 中， 其 他 内 容 ,， 包括 大 模型 在 实际 生活 中 的 应 用 ,将 大 模型 


1 可 以 分 为 自然 语言 理解 和 自然 语言 生成 两 类 任务 , 自然 语言 理解 方面 ， 


主要 包含 情感 分 析 、 文 本 分 类 等 任务 ， 自然 语言 生成 方面 ， 主 要 包含 对 话 、 摘 要 、 翻 译 等 任 
务 。 大 模型 语言 理解 能 力 评测 方面 ，W. Zengzhi 等 3] 对 ChatGPT 理解 文本 中 包含 观点 、 情 


绪 、 情 感 的 理解 能 力 进行 了 评测 ， 并 与 微调 后 的 BERT 模型 以 及 最 优 方法 进行 比 对 以 判断 
ChatGPT 能 和 否 胜任 情感 分 析 任 务 。Z. Wenxuan 等 "21 对 大 模型 在 各 类 情感 分 析 任 务 上 的 性 能 
进行 了 调查 ,并 将 大 模型 与 在 特定 数据 集 上 训练 后 的 小 模型 进行 对 比 ,结果 显示 ， 大 模型 在 


简单 任务 中 表现 良好 ， 


在 较 复杂 任务 中 表现 较 差 , 但 只 要 增加 少量 样本 , 仍然 表现 出 了 优 于 


小 模型 的 性 能 。P. Alejandro 等 所 评测 了 大 模型 在 公共 事务 文件 分 类 方面 的 性 能 ， 构 建 了 包 


含 30 个 类 别 的 文本 分 类 数据 集 ， 并 为 每 个 类 别 数据 构建 了 二 分 类 评测 数据 ， 通 过 二 分 类 评 


测 的 方法 解决 了 类 别 村 


本 不 平衡 问题 。 大 模型 语言 生成 能 力 评 测 方面 ，Z. Wenhao 等 针对 


大 语言 模型 的 翻译 能 力 开展 研究 , 包括 对 大 模型 翻译 能 力 的 评测 、 大 模型 翻译 能 力 激发 和 大 
模型 在 不 同 语言 上 翻译 能 力 的 表现 , 探讨 了 大 模型 翻译 能 力 提升 的 路 径 及 训练 语 料 语种 对 于 


大 模型 翻译 能 力 提升 的 影响 。 

在 知识 储备 方面 ,有 针对 垂直 领域 的 领域 知识 评测 , 也 有 针对 通用 领域 的 世界 知识 评测 ， 
例如 D. Xuanquy 等 PJ 对 ChatGPT 在 回答 高 中 数学 多 项 选择 题 时 的 表现 进行 了 分 析 ， 结 果 显 
R> ChatGPT 很 难 回答 导数 、 空 间 几 何等 方面 的 问题 ， 而 在 指数 、 对 数 等 问题 上 表现 出 色 。 
W. Yiran PIRR T GPT-4 解决 高 难度 数学 问题 的 能 力 ， 值 得 注意 的 是 ， 该 研究 使 用 了 多 
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行 数学 测试 ， 其 中 包括 MathChat。D. Dat 等 2 评估 了 大 模型 在 遗传 


领域 的 表现 ，ChatGPT 的 表现 与 人 类 相近 ， 在 记忆 性 问题 方面 表现 尤其 突出 。G. Aidan 等 
评价 了 ChatGPT 在 医疗 护照 考试 中 的 表现 ， 使 用 2 组 多 项 选择 题 对 ChaGPT 进行 评估 ， 

并 与 另外 两 个 大 模型 GPT-3、InstructGPT 进行 了 比较 。 
在 安全 性 方面 ， 主 要 针对 大 模型 道德 偏见 、 鲁 棒 性 等 方面 开展 评测 ，Z. Jiaxu 等 6 构建 


了 用 于 评价 中 文 对 话 大 模型 的 数据 集 CHBias， 使 用 该 数据 集 对 对 话 大 模型 进行 了 评测 ， 证 


明了 一 些 模 型 仍然 存在 社会 偏见 倾向 。P. Alicia 等 562 引入 了 问答 偏见 基准 BBQ， 涉 及 美国 
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社会 环境 中 九 种 即时 存在 的 社会 偏见 ,评测 结果 发 现 , 给 定 上 下 文 能 一 定 程度 上 消减 模型 的 
| 析 映 像 ， 但 不 能 完全 消除 。 


除 此 之 外 ， 还 有 大 量 跨 领域 跨 任务 的 大 模型 评测 基准 被 提出 ， 例 如 Z. Wenxuan OK 


] 9 种 不 同 语言 构建 的 来 源 于 真实 试题 的 评测 数据 集 M3Exam, H. Yuzhen 等 6 构建 了 包含 
4 个 难度 级 别 、52 中 学 科 来 源 的 多 项 选择 评测 数据 集 ，X. Liang 等 5 结合 大 模型 发 布 平 台 用 


户 评分 对 大 语言 模型 进行 了 评价 ， 探 讨 了 封闭 式 问题 评价 大 语言 模型 的 缺陷 。 


综 上 所 述 ， 当 前 大 语言 模型 评测 很 多 都 是 基于 ChatGPT 开展 ， 主 要 原因 在 于 ChatGPT 
已 经 成 为 当前 大 模型 的 标杆 ， 其 强大 的 指令 跟随 能 力也 便于 人 们 进行 评测 ， 也 有 研究 使 用 
ChatGPT 对 其 他 大 模型 输出 内 容 进 行 评测 ， 这 对 于 一 些 参数 量 较 小 的 大 模型 来 说 不 失 为 一 
' 可 行 的 方法 。 男 一 方面 ,很 多 大 模型 评测 基准 采用 了 大 量 选择 题 作 为 测试 任务 ,使 用 选择 
题 进 行 评测 为 评测 结果 量化 提供 了 便利 , 但 是 , 封闭 式 的 任务 或 许 并 不 能 完全 体现 模型 的 性 


能 ， 与 之 相对 的 ， 开 放 式 任务 在 量化 评测 方面 很 难 同时 顾及 准确 、 客 观 、 便 捷 。 


3 ”评测 体系 设计 /Evaluation system design 
在 近期 推出 的 大 模型 评测 任务 中 ， 单 项 选择 题 成 为 了 评测 的 重要 组 成 部 分 ， 究 其 缘由 ， 


通过 单项 选择 对 模型 进行 评测 ， 可 以 相对 客观 、 快 捷 地 获取 模型 在 某 个 方面 的 得 分 。 但 是 ， 


单项 选择 题 着 重 考 察 模型 对 特定 领域 的 知识 储备 和 指令 跟随 能 力 , 模型 的 文本 生成 能 力 一 定 


程度 上 被 忽略 了 。 为 尽 可 能 全 面 地 对 大 模型 在 人 文 社 科 领域 的 表现 进行 评测 ， 本 文 从 领域 知 
识 与 学 术 文本 两 个 角度 入 手 ， 挑 选 了 13 个 性 能 较为 优越 的 通用 领域 开源 中 文大 模型 ， 设 计 


了 7 个 任务 开展 评测 。 本 文 的 整体 框架 结构 如 图 1 所 示 。 


大 模型 评测 
榜 单 调研 


3.1 评测 模型 选取 


评测 模型 选取 


评测 任务 设计 


评测 指标 选取 


模型 部 署 预测 
评测 数据 集 构 建 
指标 计算 


| 评测 结果 


图 1 大 模型 评测 整体 流程 框架 


Figure 1 Framework for Large Model Evaluation 


在 评测 模型 选取 初期 ， 调 研 了 当前 认可 度 较 高 的 大 模型 评测 榜 单 ， 例 如 OpenLLM0B91、 
SuperCLUEB3、C-evalB4、CLiBB7 等 , 选取 了 其 中 性 能 较为 优越 的 开源 中 文大 模型 作为 本 文 


模型 的 候选 模型 。 根 据 调 下 


能 ， 而 当前 大 多 数 开源 中 
亿 量 级 的 大 模型 进行 评测 


结果 可 以 发 现 ,对 于 同一 模型 ， 参 数量 的 变化 会 大 幅 影 响 模型 性 


文 模型 参数 量 均 集中 在 7B 左右 ， 因 此 ， 本 文 同一 选取 参数 量 在 十 


， 有 具体 模型 信息 如 表 1 所 示 。 本 文 共 选 取 了 13 个 模型 ， 其 中 包括 


基 座 模型 6 个 和 对 话 模型 7 个 ， 对 于 其 中 一 些 模型 ， 例 如 ChatGLM-6B 模型 ， 当 前 仅 开 源 


了 对 话 模型 ， 因 此 只 选择 了 对 话 模型 版 本 。 相 较 于 基 座 模型 ， 对 话 模型 由 于 经 过 通用 对 话 数 


据 微调 ， 有 着 更 加 强大 的 指令 跟随 能 力 ， 能 够 更 好 地 理解 用 户 提问 并 应 答 ， 以 当前 大 多 通用 


领域 模型 评测 的 结果 来 看 


往 可 以 表现 出 更 加 优越 的 


， 对 于 同 


VERE. BI 


一 模型 来 说 ,在 以 对 话 为 任务 形式 的 评测 下 ， 对 话 模型 往 
此 ， 本 文 做 出 假设 : 在 垂直 领域 ， 对 话 模型 仍然 可 以 表现 


出 更 加 优越 的 性 能 ， 在 评测 过 程 中 ,将 对 话 模型 与 基 座 模型 分 别 进 行 对 比 ， 使 模型 性 能 的 对 
比 更 加 清晰 。 在 评测 任务 的 形式 上 ， 由 于 基 座 模型 指令 跟随 能 力 较 弱 ， 因 此 ， 对 于 一 些 格式 


化 要 求 较 高 的 任务 ， 着 重 对 基 座 模型 的 输出 进行 了 后 处 理 ， 例 如 单项 选择 、 分 类 等 任务 。 
表 1 中 文 开源 大 模型 选取 
Table 1 Chinese Open Source Large Models 


模型 名 称 模型 类 型 发 布 机 构 
Atom-7B"3! FlagAlpha 
i [39] 
A [40] eim 百川 智能 
Chinese-Alpaca-7B""! alc ymcui 
InternLM-7B?! 上 海 人 工 智 能 实验 室 
Qwen-7B?! 阿里 云 
Atom-7B-Chat38! FlagAlpha 
Baichuan2-7B-Chat”! 百川 智能 
ChatGLM-6B4] 对 话 模型 智 谱 AT 


ChatGLM2-6B>! 
InternLM-7B-Chat!*?! 


上 海 人 工 智 能 实验 


ki 


Phoenix-Inst-Chat-7B 4° 
Qwen-7B-Chat!*3} 


香港 中 文大 学 (深圳 ) 
阿里 云 


3.2 评测 任务 构建 
[对 人 文 社 科 领 域 知识 ， 本 文 构建 了 3 个 任务 进行 评测 ， 分 别 是 单项 选择 、 术 语 解释 、 


他 | 


开放 问答 。 
的 大 学 生 人 文 和 


a= 
rf 


方面 ”。 术语 解释 数据 来 源 了 
包含 了 管理 学 、 教 育 学 、 


Site Whe 
WR, WETE, 


WAR 


THLE PE. FERC NaS HE ASC ELBA E 
MRE, H AE, AS RRA, WN 
更 加 广泛 、 均 衡 ， 本 文 按照 4:2:2:2 的 比例 从 各 类 试题 中 
包括 哲学 、 历 史 、 汉 语文 化 
RAE, 包括 对 于 某 一 专 } 
域 化 知识 的 掌握 以 及 分 点 作答 能 力 ， 例 如 ， 
F 南京 大 学 外 


0 解释、 对 领 : 


取 数 据 。 其 中 


经 济 学 基础 知识 ， 


针对 人 文 社 科 学 术 文本 ， 本 文 构建 了 4 “MA 


类 


和 语 步 划 分 来 源 于 CSSCI 收录 期 


考虑 到 当前 中 文大 模型 均 具备 双 


全 面 的 评测 。 


关 


王 务 和 期 望 输出 进行 ， 以 单 


> 


果 证 评测 涵盖 学 科 范围 


单项 选择 题 主 要 


放 问 答 以 人 文 社 科 领 域 相关 论 
成 化 世界 知识 的 列举 ， 考 察 大 语言 模型 对 领 
“当代 人 文科 学 呈现 应 用 化 趋势 ， 表 现在 哪 几 个 
国语 学 院 术 语 与 翻译 跨 学 科研 究 基 地 研究 成 
经 济 学 、 考 古 学 等 十 个 学 科 的 术语 文本 及 解释 数据 ， 从 各 学 科 数 据 
抽取 了 二 十 条 解释 较为 全 面 、 完 整 的 数据 共 200 条 数 


47 
REN, 


据 作为 术语 解释 测试 语 料 。 


FE 务 进行 评测 ， 分 别 是 论文 摘要 文本 学 科 分 


E 务 抽取 20 FAH 


EAA 
ta he 


分 类 ， 


X, K 


其 对 应 学 科 


aS 


=] 


十 


、 论 文摘 要 文本 语 步 识别 、 论 文 标题 生成 和 学 术 文本 翻译 。 论 文摘 要 、 标 题 及 
论文 摘要 文本 及 
划分 了 26 个 学 科 分 类 ， 过 多 的 选择 不 利于 大 模型 输出 正确 的 内 
的 数据 中 ， 每 学 科 每 个 人 


考虑 到 CSSCI 当前 
H, KXM 10 个 学 科 
k 200 条 数据 作为 摘要 文本 分 类 、 语 步 识 别 和 论 
文 标 题 生成 的 测试 语 料 。 文 本 翻译 数据 与 术语 解释 数据 来 源 相 同 经 过 同样 的 处 理 流程 获得 
J, 文本 翻译 任务 通过 中 英 互 译 的 方式 对 模型 进行 更 加 


评测 所 需 数据 收集 完成 ， 需要 针对 不 同 的 任务 构建 提示 指令 , 构建 提示 指令 需要 结 


对 应 学 科 


N 


> 


合 相 


可 能 只 输出 正确 答案 对 应 选项 
后 续 对 模型 输出 
也 可 以 提升 模型 的 输出 效果 这 


关内 容 , 不 便于 


， 考虑 到 本 文 的 领域 怕 


项 选择 为 例 ， 为 降低 后 续 评测 指标 计算 难度 ,需要 保 i 
昌 关 选项 ， 大 部 分 情况 下 会 输出 一 些 无 


EF 模型 尽 


， 如 果 只 是 输入 问题 及 术 
结果 进行 评测 。 另 一 方面 , 在 提示 过 程 中 , 为 模型 设 定 角色 ， 


E, 在 构建 提示 指令 时 也 添加 了 相关 的 角 


色 带 入 用 语 。 之 后 , 选取 少量 数据 在 各 模型 上 进行 测试 ， 尽 可 能 使 大 多 数 模型 能 够 输出 符合 
要 求 的 内 容 ， 构 建 相 应 指令 如 表 2 所 示 。 
表 2 提示 指令 示例 
Table 2 Examples of prompts 
任务 提示 指令 
作为 一 名 人 文 社 科 领 域 研究 人 员 ， 回 答 下 面 给 出 的 人 文 社 科 领 域 开放 性 问 
开放 问答 | 答 ， 要 尽 可 能 全 面 成 体系 
{input} 
作为 一 个 人 文 社 科 领域 研究 人 员 , 回答 下 面 给 出 的 单项 选择 题 , 只 需要 输出 
单项 选择 | 选项 ， 即 A、B、C、D 中 的 一 个 ， 不 需要 解释 ， 不 要 输出 其 他 内 容 
{input} 
作为 一 名 人 文 社 科 领域 研究 人 员 , 对 下 面 给 出 的 领域 术语 进行 解释 , 解释 要 
术语 解释 | 尽 可 能 详细 
{input} 


据 下 面 给 4 


的 人 文 社 科 


领域 摘要 文本 , 给 出 最 有 可 能 的 标题 , 只 需要 输 


a LJ 
标题 生 标题 ， 不 要 输出 其 他 内 容 

{input} 

将 下 面 这 段 {文化 学 } 领 域 英文 (中文 ) 文本 翻译 为 中 文英 文 ) ， 只 需要 答 
文本 翻译 | 出 翻译 结 

{input} 

民 据 下 面 给 出 的 人 文 社 科 领域 摘要 文本 ， 判 断 该 摘要 属于 人 文 社 科 领 域 的 

哪个 专业 ， 从 [哲学 历史 学 ', ' 法 学 ', ' 政 治学 ', "经济 学 ', ' 社 会 学 ", 教育 学 ', Àb 
学 科 分 类 | 理学 ', ' 管 理学 ', ' 语 言 学 ] 中 选择 一 个 类 别 进行 输出 ， 只 需要 输出 类 别名 称 ， 

不 要 输出 其 他 内 容 

{input} 

民 据 下 面 给 出 的 人 文 社 科 领 域 论文 摘要 文本 ， 判 断 这 段 文 本 是 属于 摘要 中 
语 步 识别 的 哪个 部 分 , 从 [结果 ', 方法 ,目的 , "局限 ,结论 '] 中 选择 一 个 类 别 进 行 输出 ， 

只 需要 输出 类 别名 称 ， 不 要 输出 其 他 内 容 

{input} 


经 过 测试 ， 完 成 基础 指令 的 构建 之 后 ， 需 要 和 
成 能 力 一 定 程度 


Lt 


模型 输 


的 内 容 ， 即 few-shot!*9! 。 
基础 上 ， 本 文 针 对 不 同 任务 试验 了 0-shot、 
E 想 内 容 的 情况 下 


可 能 保 订 
表 3 所 示 。 


E 模 型 能 够 输出 开 


3.3 评测 指标 选 
生成 式 模 型 


上 ,本 文 针对 各 个 特定 任务 选取 了 对 应 指标 ， 以 期 尽 可 能 地 对 模型 生成 内 容 进行 客观 、 定 量 
的 评价 ， 本 文 3 


(1) 准确 


if 


求 较 高 ， 在 本 文 过程 
PRE He i 


任务 


EZ 


BAN Pall EFRA n] DA E FS 
皇 务 、 模 型 都 适合 few-shot 模式 ， 在 构建 指令 的 


上 来 源 于 其 强大 的 上 下 文学 习 能 
8 内 容 的 质量 ， 可 以 给 定 少 机 
但 是 ， 并 非 所 有 


请 


shot、3-shot 模型 


表 3 评测 提示 模式 


Table 3 mode of prompts 


任务 提示 模式 
开放 问答 0-shot 
单项 选择 0-shot 
术语 解释 0-shot 
标题 生成 0-shot 
文本 翻译 0-shot 
学 科 分 类 3-shot 
语 步 识别 1-shot 


取 
的 发 展 为 模型 记 


下 不 同 模型 的 输 晶 
降低 提示 示例 个 数 , 最终 确 定 了 各 伯 


FE 测 带 来 了 极 大 的 挑战 , 在 当前 自然 语言 处 理 评价 指标 的 基础 


上 定 的 是 模型 提示 模式 。 大 模型 强大 的 文本 
， 因 此 ,在 茶 些 任务 下 ,为 尽 可 能 提高 
E 解 指令 ,输出 更 力 


[符合 需求 


三 | 


Æ 


质量 。 在 尽 


F 务 示例 个 数 如 


L 


p 


采取 的 评价 指标 及 计算 方法 如 下 文 所 述 。 
率 (Accuracy) 
简单 、 便 捷 ， 适 用 于 单项 选择 和 分 类 任务 ， 但 对 于 模型 输出 内 容 的 规范 性 要 


余 内 容 的 结果 i 


| 


` 乏 有 模型 1 


> 


于 输 晶 


行 了 修改 。 


(2) Hat 


iE. 


LA AE AS LF BUS IT BUR 2 FES 


昌 回 率 、 调 和 平均 值 (Precision、Recall、F1l-score) 


结果 之 后 ， 通 过 和 人工 对 结果 进行 了 校对 ,将 一 些 答案 正确 但 输 


项 选择 、 分 类 


8 多 


精确 度 、 召 回 率 、 调 和 平均 值 是 自然 语言 处 理 任务 中 常用 的 指标 ， 该 指标 的 计算 基于 混 
清和 矩阵 进行 ， 通 过 混 消 矩阵， 对 于 每 一 个 类 别 ， 可 以 将 全 部 预测 结果 分 为 四 类 ， 即 预测 为 该 
类 别 且 实际 为 该 类 别 (TP)、 预 测 非 该 类 别 且 实 际 非 该 类 别 (TN)， 预测 为 该 类 别 但 实际 非 该 类 
别 (FP)， 预 测 非 该 类 别 但 实际 为 该 类 别 (FN)， 得 到 相应 的 相应 计算 公式 如 下 : 


a P TP (1) 
recision = TP AFP 
TP 
Recall = ————— (2) 
TP +FN 
2precision * recall 
F1 — Score = Aaa Abad (3) 


precision + recall 
考虑 到 生成 式 模型 输出 的 不 规范 问题 , 对 于 多 分 类 任务 指标 , 采取 加 权 平 均 算法 得 到 分 
类 任务 各 模型 的 最 终 得 分 。 加 权 平 均 是 使 用 每 个 类 别 样本 数量 占 所 有 类 别 的 样本 总 数 的 比例 
作为 权重 , 再 计算 各 指标 平均 值 ， 这 样 可 以 有 效 屏 蔽 模型 输出 的 不 规范 内 容 ， 加 权 平 均 计算 
公式 如 下 ， 其中, xi 为 模型 所 预测 的 i 类别 样 本 量 占 整个 数据 集 样本 量 的 比例 , FN i 类别 对 
应 的 调和 平均 值 。 


= 


We= > x fi (4) 
i=1 
(3) BLEU 
BLEUGS0 指 标 是 基于 n-gram 思想 针对 精确 率 制定 的 一 系列 用 于 衡量 生成 文本 与 参考 文 


本 之 间 相 似 度 的 指标 。 本 文采 用 了 BLEU 作为 评价 文本 翻译 的 评测 指标 ， 其 具体 计算 公式 
如 下 : 


Dsefcandidate} Dgramnes Countmatcn(gramn) (5) 

Yse{candidate} grames Count(gram, ) 

其 中 , n 代表 n-gram 的 长 度 , Countmaten 代 表 生 成 文本 与 参考 文本 中 共同 出 现 的 n-gram 
最 大 数量 。 分 母 则 代表 生成 文本 中 n-gram 的 个 数 。 

(4) ROUGE 

ROUGEED 指 标 同样 基于 n-gram 思想 针对 召回 率 制 定 的 一 系列 用 于 衡量 生成 文本 与 参 
考 文 本 之 间 相 似 度 的 指标 。 本 文采 用 了 ROUGE-N 和 ROUGE-L 作为 评价 标题 生成 、 术 语 解 
释 和 开放 问答 的 评测 指标 。ROUGE-N 具体 计算 公式 如 下 : 
DsetReference} Sgramnes COUN matcn(GTAMy) (6) 

Yse{rRe ference} grames Count(gramn) 


其 中 , n 代表 n-gram 的 长 度 , Countmaren 代 表 生 成 文本 与 参考 文本 中 共同 出 现 的 n-gram 


BLEU -n 


ROUGE -N = 


最 大 数量 。ROUGE-L 基于 LCS(longest common subsequence) 思 想 ， 通 过 计算 两 个 句子 的 最 
大 公共 子 序列 对 应 P、R、F 值 ， 具 体 计 算 公 式 如 下 : 
LCS(X,Y) 
Rics = Mm (7) 
LCS(X, Y) 
Pres = ye (8) 


(1 十 2?)Rics * Pics 
Rics + B? Pics (9) 
其 中 , m, n 分 别 代表 参考 文本 与 生成 文本 的 长 度 , 在 计算 过 程 中 ，B 会 被 设置 为 一 个 很 
大 的 数值 ， 与 ROUGE-N 相同 ，ROUGE-L 主要 参考 召回 率 。 
(5) chrF 


Fics = 


chrF7]48 45-5 BLEU 指标 类 似 ， 区别 在 于 ,chrF 指标 是 基于 字符 级 进行 计算 ， 主 要 针对 
F-score 进行 计算 ， 有 具体 计算 公式 如 下 : 


chrFe = (1 + 8°) 


chrP * chrR 
B2 * (chrR + chrP) 
其 中 ，chrP 为 生成 文本 中 属于 参考 文本 的 字符 数 所 占 百 分 比 ，chrR 为 参考 文本 中 属于 
E 成 文本 的 字符 数 所 占 百 分 比 。chrF 指标 同样 应 用 于 文本 翻译 的 评测 ， 为 保证 BLEU, chrF 
# 标 计算 的 准确 性 ， 本 文采 用 了 sacreBLEU3 提 供 的 方法 进行 计算 。 
(6) MAUVE 
MAUVE5 指标 从 KL 散 度 的 角度 对 人 工 智 能 生成 文本 与 人 类 生成 文本 的 相似 性 进行 评 
古 。 该 指标 的 计算 依赖 于 自 回 归 语 言 模型 , 根据 MAUVE 计算 的 相关 实验 , MAUVE 指标 与 
人 类 评价 的 相近 度 随 着 采用 模型 参数 量 的 增 大 而 增 大 , 在 本 文中 , 使 用 GPT2-large55 模 型 作 
为 计算 MAUVE 指标 采用 的 自 回归 语言 模型 ，MAUVE 指标 用 于 评价 开放 问答 和 术语 解释 
任务 。 
在 具体 计算 过 程 中 ，HuggingFace 开源 的 evaluate59 库 为 指标 计算 提供 了 较为 便捷 的 路 
径 和 方法 ， 只 需 将 模型 、 相 关 指 标 计算 代码 准备 完毕 ， 即 可 通过 evaluate 库 加 载 相关 指标 进 
行 计算 和 输出 。 为 方便 最 终 比较 ， 本 文 将 所 有 指标 得 分 按照 百分制 进行 统一 ,得 到 最 终 各 任 
务 的 县 体 分 值 。 
4 ”评测 结果 与 分 析 /Evaluation results and analysis 
本 次 评测 采用 的 深度 学 习 框架 为 pytorch-2.0.1， 模 型 调用 基于 transformers-4.30.1 完成 ， 
在 硬件 环境 方面 ， 采 用 单 卡 NVIDIA RTX A6000 48GB 进行 模型 推理 ，NVIDIA 驱动 版 本 为 
535.146.02, CUDA 版 本 为 12.2。 在 实验 过 程 中 ， 考 虑 到 本 文 涉 及 任务 参考 文本 长 度 均 不 超 
过 512， 为 保证 模型 不 会 输出 过 长 内 容 ， 设 置 生成 文本 最 大 长 度 为 512， 模型 输出 涉及 参数 
如 表 4 所 示 ， 表 中 未 列 出 参数 使 用 默认 值 。 
表 4 模型 输出 参数 
Table 4 Parameters of Model Output 


(10) 


Lt 


= 


= 


参数 名 称 参数 含义 参数 值 
max_length 生成 序列 最 大 长 度 512 
min_length 生成 序列 最 小 长 度 None 
do_sample 是 否 开 启 采样 False 

no_repear_ngram_size 空 制 重复 词 生成 0 
top_k 保留 多 少 个 最 高 概率 词 作为 候选 40 
tape 已 知 生成 各 词 总 概率 为 1， 若 top_p 小 于 1, as 

E 则 从 高 到 低 累加 至 top_p， 取 其 中 词 作为 候选 
temperature 控制 softmax 输出 的 差距 0.2 


4.1 领域 基础 知识 

4.1.1 单项 选择 

单项 选择 是 当前 大 模型 评测 的 常用 任务 , 考虑 到 基 座 模型 的 指令 跟随 能 力 较 弱 ,为 提高 
评测 的 准确 性 ， 本 文 对 基 座 模型 输出 进行 了 后 处 理 , 将 模型 输出 不 规范 但 正确 的 情况 修改 为 
了 正确 选项 。 根据 模型 输出 的 上 县 体 情 况 来 看 ， 大 多 数 基 座 模型 难以 按照 要 求 输出 选项 ， 有 些 
模型 只 是 在 单纯 的 复述 题目 , 而 对 话 模型 大 多 可 以 输出 较为 正常 的 结果 , 虽然 也 会 夹杂 解释 
内 容 ， 但 效果 远 优 于 基 座 模型 。 在 各 模型 中 ，Baichuan2-7B-Chat 和 InternLM-7B-Chat 模型 
在 输出 内 容 的 规范 性 方面 表现 优越 ,在 评测 的 100 条 题目 中 ,做 到 了 完全 按照 指令 ,只 输出 
选项 。 各 模型 在 单项 选择 任务 中 的 具体 表现 如 表 5 所 示 。 


K 5 单项 选择 怕 


Table 5 Indicators of Single choices 


能 指标 


I 


模型 中 获得 了 最 高 的 准确 率 ， 而 Qwen-7B 模型 在 基 座 模型 中 获 


意 的 是 ，Atom-7B-Chat 模型 在 单项 选择 任务 中 表现 劣 于 一 些 基 座 模型 ， 经 过 检查 模型 输出 
内容 经 常 为 空 ,经 过 多 次 重复 实验 ， 
j 对 话 模型 进行 指令 微调 过 程 中 所 使 用 


内 容 , 发 现 Atom-7B-Chat 模型 在 站 
仍然 无 法 避免 ， 可 能 是 


模型 名 称 模型 类 型 模型 得 分 (Accuracy) 
Atom-7B 3 
Baichuan-7B 10 
Baichuan2-7B 基 座 模型 16 
Chinese-Alpaca-7B 18 
InternLM-7B 12 
Qwen-7B 25 
Atom-7B-Chat 13 
Baichuan2-7B-Chat 71 
ChatGLM-6B 35 
ChatGLM2-6B 对 话 模型 52 
InternLM-7B-Chat 60 
Phoenix-Inst-Chat-7B 38 
Qwen-7B-Chat 61 

可 以 看 到 ， 大 多 数 对 话 模型 表现 出 了 相当 优越 的 性 能 ，Baichuan2-7B-Chat 模型 在 对 话 


了 最 高 的 准确 率 。 值 得 注 


x 4 
RA 


项 选择 全 


的 数据 质量 问题 导致 。 


因为 Atom-7B-Chat 模型 在 使 


E 务 中 的 输 


4.1.2 术语 解释 与 开放 问答 
术语 解释 与 开放 问答 是 评价 大 模型 领域 知识 和 文本 生成 能 力 的 任务 ， 相 较 于 单项 选择 ， 
术语 解释 和 开放 问答 任务 对 于 输出 结果 没有 格式 要 求 , 也 无 需 对 输出 结果 进行 后 处 理 , 但 对 
于 开放 性 生成 任务 的 评价 更 具 挑 战 。 各 模型 在 术语 解释 与 开发 问答 任务 中 的 具体 表现 如 表 6 
所 示 。 
表 6 名 词 解释 、 开 放 问 答 得 分 
Table 6 Indicators of Terminology Definition and Open Q&A 
模型 名 称 模型 类 型 名 词 解释 开放 问答 
ROUGE-L MAUVE ROUGE-L MAUVE 
Atom-7B 19.2 4.96 3.46 1.02 
Baichuan-7B 23.37 5.66 8.12 6.85 
Baichuan2-7B a 31.19 29.52 15.06 6.91 
i 基 座 模型 
Chinese-Alpaca-7B 16.19 23.04 4.92 4.07 
InternLM-7B 27.62 7.39 7.92 6.91 
Qwen-7B 30.14 20.31 9.48 8.18 
Atom-7B-Chat 33.34 18.86 5.09 10.57 
Baichuan2-7B-Chat 36.25 39.91 14.19 15.14 
ChatGLM-6B 32.38 34.62 16.17 9.11 
ChatGLM2-6B 对 话 模型 35.08 31.78 14.78 11.24 
InternLM-7B-Chat 32.10 46.75 21.91 12.03 
Phoenix-Inst-Chat-7B 26.86 42.33 17.69 7.57 
Qwen-7B-Chat 30.48 28.98 21.86 15.39 


整体 来 看 ， 开 放 问 答 得 分 明显 低 于 名 词 解释 ， 而 且 ， 相 较 于 单项 选择 ， 这 两 个 任务 中 基 
座 模型 与 对 话 模型 的 差异 较 小 。 究 其 缘由 ， 当 前 的 生成 式 模型 所 表现 出 来 的 对 话 能 力 本 质 上 
是 对 于 文本 的 续 写 ， 而 名 词 解释 、 开 放 问 答 任 务 的 提问 方式 、 指 令 与 日 常 对 话 有 很 大 的 相似 
之 处 , 很 多 模型 在 预 训练 阶段 采用 的 数据 就 会 包含 一 部 分 问答 内 容 , 这 也 使 得 基 座 模型 也 能 
表现 出 不 错 的 对 话 、 问 答 能 力 。 开 放 问 答 之 所 以 分 值 较 低 ， 是 因为 开放 问答 用 词 更 为 多 变 ， 
答案 多 样 性 更 强 ， 因 此 会 影响 到 使 用 标准 答案 进行 比 对 评测 的 得 分 计算 。 

在 基 座 模型 中 ，Baichuan2-7B 模型 取得 了 最 佳 得 分 ， 而 在 对 话 模型 中 ，Baichuan2-7B- 
Chat 模型 和 Qwen-7B-Chat 模型 分 别 取 得 了 名 词 解释 和 开放 问答 的 最 佳 得 分 。 在 开放 问答 任 
务 中 ， Chinese-Alpaca-7B 模型 多 次 输出 内 容 为 空 ， 经 过 反复 实验 仍然 无 法 避免 ， 而 Atom- 
TB 系列 模型 虽然 没有 输出 内 容 为 空 的 情况 ， 但 是 出 现 输出 内 容 非 正常 语言 ， 例 如 重复 的 数 
字 、 标 点 等 ， 考 虑 到 模型 评测 的 实际 应 用 性 ， 并 未 对 这 些 内 容 进 行 后 处 理 而 直接 计算 指标 ， 
这 使 得 Chinese-Alpaca-7B 和 Atom-7B 系列 模型 指标 明显 落后 于 其 他 模型 。 
4.2 学 术 文 本 
4.2.1 学 术 文本 学 科 与 语 步 分 类 

对 于 分 类 任务 ,即便 给 定 了 一 定量 的 示例 样本 , 基 座 模型 仍然 难以 按照 正确 的 格式 输出 ， 
与 单项 选择 任务 类 似 , 本 文 也 对 分 类 任务 的 基 座 模型 输出 进行 了 后 处 理 , 使 得 评测 指标 能 够 
更 好 地 反应 模型 实际 性 能 。 经 过 后 处 理 ， 得 到 各 模型 分 类 任务 具体 得 分 如 表 7 所 示 。 

表 7 分 类 任务 得 分 
Table 7 Indicators of Categories Tasks 


= 


i EARR 学 科 分 类 语 步 分 类 
异型 名 称 异型 类 型 Accuracy F-1 Accuracy F-1 
Atom-7B 4.67 3.3 22 10.44 
Baichuan-7B 11.33 13.20 16.5 5.95 
Pace 基 座 模型 58.33 61.79 20 6.72 
Chinese-Alpaca-7B 40 46.20 20 6.9 
InternLM-7B 20 15.28 20 6.69 
Qwen-7B 51.67 56.06 24 15.58 
Atom-7B-Chat 27 34.46 20 6.93 
Baichuan2-7B-Chat 33 26.93 27 18.33 
ChatGLM-6B 5.67 2.2 23.5 18.45 
ChatGLM2-6B 对 话 模型 43 42.87 22.5 14.55 
InternLM-7B-Chat 66.67 68.58 46 42.32 
Phoenix-Inst-Chat-7B 37.67 32.44 20 6.67 
Qwen-7B-Chat 37.67 38.45 44 40.22 


总 体 来 看 ,在 基 座 模型 中 , Baichuan-7B 与 Qwen-7B 模型 取得 了 最 佳 得 分 , 对 话 模 型 中 ， 
InternLM-7B-Chat 模型 取得 了 最 佳 得 分 。 大 部 分 情况 下 ， 语 步 分 类 得 分 要 低 于 学 科 分 类 ， 在 
观察 过 程 中 发 现 ， 大 多 数 模型 仅 输出 了 2-3 种 语 步 类 别 ， 并 未 将 给 出 的 全 部 语 步 类 别 涵盖 。 
此 外 ，Baichuan2-7B、Qwen-7B 模型 在 学 科 分 类 任务 种 的 性 能 超过 了 对 应 对 话 模型 ， 这 一 方 
面 是 因为 对 基 座 模型 输出 进行 了 后 处 理 ， 另 一 方面 ,在 经 过 对 话 数据 微调 后 ， 应 对 学 科 分 类 
这 一 非 正常 对 话 任务 ， 对 话 模型 性 能 反而 下 降 了 。 

4.2.2 学 术 文本 标题 生成 

摘要 文本 生成 一 直 是 自然 语言 处 理 领域 的 传统 任务 , 针对 学 术 文 本 来 说 , 利用 全 文 内 容 
生成 摘要 需要 提高 模型 的 最 大 输出 长 度 ， 同 时 需要 解决 其 中 图 标 、 公 式 相 关内 容 的 解析 ， 难 
度 较 高 。 为 评测 大 模型 在 文本 组 织 方面 的 能 力 ， 本 文采 用 标题 生成 任务 来 代替 摘要 生成 ， 对 


fr 


大 模型 文本 归纳 能 力 进 行 评 价 ， 虽 然 模型 仍然 会 输出 一 些 无 关内 容 , 但 考虑 


到 本 文 所 采用 评 


测 指标 ROUGE 着 重 计算 召回 率 ,， 所 以 未 对 各 模型 生成 文本 进行 进一步 处 理 ， 各 模型 标题 生 
成 具体 得 分 如 表 8 所 示 。 
表 8 标题 生成 得 分 
Table 8 Indicators of Title Generation 
模型 名 称 模型 类 型 esta 
ROUGE-1 ROUGE-2 ROUGE-L 
Atom-7B 22.82 10.51 19.17 
Baichuan-7B 19.39 9.18 14.21 
Baichuan2-7B er 29.21 23.85 29.91 
Chinese-Alpaca-7B 20.35 10.94 11.53 
InternLM-7B 21.97 10.42 13.04 
Qwen-7B 53.23 39.02 45.94 
Atom-7B-Chat 15.88 7.01 9.88 
Baichuan2-7B-Chat 49.59 35.55 42.56 
ChatGLM-6B 45.80 30.42 36.28 
ChatGLM2-6B 对 话 模型 48.31 33.69 40.79 
InternLM-7B-Chat 52.08 37.47 44.66 
Phoenix-Inst-Chat-7B 28.86 16.67 18.67 
Qwen-7B-Chat 52.69 37.89 45.28 


在 对 话 模型 与 基 座 模型 中 ， 分 别 由 
Qwen-7B 模型 的 性 能 甚至 略微 超过 了 Qwen-7B-Chat 模型 
务 的 表现 ， 可 以 肯定 的 是 Qwen 模型 在 预 j 
了 基 座 模型 的 性 能 ， 使 得 Qwen 模型 的 对 计 


4.2.3 学 术 文 本 翻译 


Qwen-7B-Chat # 


机 器 翻译 也 是 自然 语言 处 


机 器 翻译 方面 表现 出 的 优越 性 能 改变 了 机 器 番 
Decoder 架构 逐渐 向 Decoder-only 架构 转变 。 本 
模型 对 于 人 文 社 科 领 域 学 术 文 本 的 翻译 能 力 进 行 评 测 ， 各 模型 文本 翻译 具 
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| 练 阶段 就 加 入 了 对 话 数 


能 力 明 显 优 于 其 他 基 座 模型 。 


I Qwen-7B 模型 取得 最 佳 得 分 ， 而 
H. AE Qwen-7B 模型 在 前 几 个 任 


四 进行 训练 ， 也 确实 提升 


F 务 ,在 大 语言 模型 不 断 发 


表 9 文本 翻译 得 分 


Table 9 Indicators of Translation 


l 译 的 研究 范式 ， 机 器 翻译 
文通 过 包含 学 术 术 语 的 中 英 平行 语 料 ， 对 大 
体 得 分 如 表 9 所 


展 的 当下 ， 大 模型 在 
昌之 前 的 Encoder + 


英 -中 中 - 英 
HFI Z 4 Fe OK FE 
REAN RERE BLEU chrF BLEU chrF 
Atom-7B 2.23 3.75 3.50 8.17 
Baichuan-7B 16.33 4.84 13.88 25.17 
Baichuan2-7B ates 20.21 19.06 24.86 30.69 
基 座 模型 
Chinese-Alpaca-7B 15.17 15.35 9.77 9.24 
InternLM-7B 19.30 27.36 16.69 24.72 
Qwen-7B 32.13 28.20 60.84 53.75 
Atom-7B-Chat 4.24 4.57 15.51 17.44 
Baichuan2-7B-Chat are 32.54 28.36 60.75 55.51 
对 话 模型 
ChatGLM-6B 27.17 23.88 55.53 48.57 
ChatGLM2-6B 27.14 23.58 55.11 48.34 


InternLM-7B-Chat 25.77 23.13 51.97 46.44 
Phoenix-Inst-Chat-7B 23.67 15.88 24.90 25.76 
Qwen-7B-Chat 31.43 27.50 60.41 54.13 
文本 翻译 中 文 互 译 任务 中 ，Qwen-7B 与 Baichuan2-7B-Chat 模型 分 别 获得 基 座 模型 与 对 
话 模 型 中 的 最 佳 得 分 。 对 比 两 个 子 任务 上 的 不 同 模型 得 分 ， 可 以 看 到 ， 中 - 英 翻译 得 分 显著 
高 于 英 -中 翻译 ， 结 合 评测 数据 和 模型 输出 内 容 ， 本 文 认 为 原因 有 二 。 一 方面 ， 文 本 翻译 指 
标的 计算 主要 基于 生成 文本 中 的 n-gram 数量 ， 而 英文 文本 长 度 ( 词 数 ) 要 低 于 中 文 文本 长 度 
(字数 )， 因 此 在 指标 计算 上 ， 英 文 结果 会 有 更 高 的 得 分 。 另 一 方面 ， 经 过 对 各 模型 输出 文本 
的 检查 ， 发 现在 英文 -中 文 翻译 任务 的 输出 结果 中 ， 包 含 一 部 分 输出 结果 为 英文 ， 这 可 能 是 
因为 模型 无 法 正确 理解 指令 而 直接 对 给 出 的 竺 翻译 英文 文本 进行 续 写 导致 。 
在 各 项 任务 上 ， 对 于 绝 大 多 数 模型 来 说 ， 对 话 模 型 有 着 更 加 优越 的 性 能 ， 也 有 一 些 模型 
表现 例外 ， 例 如 Qwen 无 论 是 基 座 模型 还 是 对 话 模型 在 文本 翻译 上 均 表 现 出 了 优越 的 性 能 ， 
基 座 模型 性 能 略 优 于 对 话 模型 ， 而 Atom 对 话 模型 在 标题 生成 任务 上 表现 很 差 .甚至 弱 于 
其 基 座 模型 。 此 外 ， 对 于 学 科 分 类 任务 ， 经 过 后 处 理 的 Baichuan2、Qwen 基 座 模型 性 能 明显 
饥 于 对 话 模型 ， 这 也 表明 这 些 模型 在 人 文 社 科 领 域 有 一 定 的 知识 储备 ， 而 对 话 模型 也 并 不 能 
完全 按照 指令 进行 输出 。 总 的 来 说 ， 与 本 文 开 始 的 假设 基本 一 致 ， 即 便 是 在 人 文 社 科 这 一 生 
直 领 域 ， 对 于 同一 个 模型 来 说 ,在 不 对 结果 进行 后 处 理 的 情况 下 ， 对话 模 型 所 表现 出 来 的 性 
能 几乎 是 完全 优 于 基 座 模型 的 。 
综 上 所 述 , 本 文 基于 7 个 任务 对 6 个 基 座 大 模型 和 7 个 对 话 大 模型 进行 了 评测 , 为 得 到 
一 个 更 加 直观 的 各 模型 性 能 对 比分 数 , 考虑 到 不 同 任务 指标 在 数值 上 差异 性 较 大 ,本 文 使 用 
各 模型 在 不 同 任务 上 的 排名 计算 各 模型 的 最 终 得 分 。 有 具体 来 说 ， 对 于 基 座 模型 ， 某 个 任务 排 
名 第 一 模型 得 六 分 ， 以 此 递减 至 最 后 一 名 ， 最 终 得 到 模型 的 综合 评价 分 数 如 表 10 所 示 。 
表 10 各 模型 最 终 得 分 
Table 10 Final scores of Models 


模型 名 称 模型 类 型 ” ”领域 知识 得 分 学 术 文 本 得 分 综合 得 分 
Atom-7B 3 12 15 
Baichuan-7B 8 10 18 
Pecan 基 座 模型 16 23 39 
Chinese-Alpaca-7B 11 14 25 
InternLM-7B 9 17 26 
Qwen-7B 16 29 45 
Atom-7B-Chat 3 7 10 
Baichuan2-7B-Chat 19 27 46 
ChatGLM-6B 10 18 28 
ChatGLM2-6B 对 话 模型 12 21 33 
InternLM-7B-Chat 17 26 43 
Phoenix-Inst-Chat-7B 7 11 18 
Qwen-7B-Chat 16 30 46 


Qwen 模型 无 论 是 基 座 模型 还 是 对 话 模型 均 获 得 了 最 高 的 得 分 ， 而 且 ，Qwen-7B 基 座 模 
型 在 标题 生成 、 文 本 翻译 方面 相 较 于 其 他 模型 有 着 断档 式 的 领先 , 甚至 不 弱 于 一 些 对话 模 型 。 
结合 各 任务 Qwen-7B 基 座 模型 表现 ，Qwen-7B 模型 在 预 训练 阶段 就 以 某 种 形式 加 入 了 对 话 
数据 ， 这 使 得 其 在 常见 的 自然 语言 处 理 任务 中 表现 出 了 非常 优越 的 性 能 。 除 此 之 外 , 在 单项 
选择 任务 中 ，Baichuan2-7B-Chat 和 InternLM-7B-Chat 两 个 模型 几乎 完全 按照 指令 ， 只 输出 


选项 , 这 对 于 生成 式 语言 模型 是 非常 艰 


令 数 据 带 来 的 效果 。 


总 的 来 说 ， 在 各 项 各 


大 模型 构建 中 承前启后 的 一 环 ， 
使 模型 能 够 更 好 地 理解 
数据 集 的 构建 , 保证 有 充足 的 领域 知识 对 模型 进行 


H 


的 任务 ， 


自然 语言 。 


能 力 ， 使 模型 能 够 充分 发 挥 其 能 
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本 文 针 对 人 文 社 科 领域 知识 和 学 术 文 本 构建 了 一 系列 大 模型 记 
领域 研究 人 员 提 供 大 模型 研究 的 参考 ,助力 人 文科 
对 13 个 基 座 、 对 话 模型 进行 评测 ， 
为 优越 的 性 能 ，Baichuan2 系列 模型 紧 随 其 后 
时 ， 通 过 对 模型 输出 内 
即 是 模型 在 输出 过 程 中 容易 输出 过 多 无 效 内 容 ， 无 法 理解 指令 含义 。1 
大 知识 量 的 大 模型 来 说 , 教会 其 


解 指令 是 


格 的 大 模型 必须 经 历 的 三 个 阶段 2 


可 能 是 对 话 模型 构建 过 和 


的 分 析 ， 本 文 还 发 现 ， 


日 


强 , 男 一 方面 也 要 六 


mi 


中 加 入 的 特殊 指 


FE 务 上 ， 对 话 模型 基本 表现 出 了 优 于 基 座 模型 的 性 能 ， 指 令 微调 作为 
其 更 多 是 将 预 训 练 阶段 注入 到 模型 的 数据 
由 此 可 见 ， 当 前 垂直 


` 知识 引 导出 来 ， 


领域 模型 的 构建 ， 一 方面 要 注重 领域 


重 模型 自身 的 对 话 


, InternLM 模型 位 


:提升 大 模型 
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页 和 
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测 任务 , 旨 在 为 人 文 社 科 
科研 究 与 人 工 智能 技术 的 交叉 融合 。 通 ; 
测 结果 显示 ， 在 人 文 社 科 领域 ，Qwen 系列 模型 有 着 
列 第 三 ，Atom 模型 表现 最 
响 基 座 模型 得 分 的 一 个 重要 因 


4 


素 ， 


此 可 见 , AFAA BE 


能 的 重要 途经 , 这 也 是 当前 一 个 合 


二 。 要 训练 一 个 合格 的 大 模型 ,需要 经 历 三 个 阶段 : 海量 


文本 预 训练 ,将 大 量 文 本 数据 注入 到 大 模型 中 , 供 大 模型 学 习 ,使 得 大 模型 拥有 足够 的 知识 
储备 以 应 对 不 同 领域 的 问题 ; 对 话 数据 指令 微调 ， 这 一 阶段 通过 多 任务 指令 学 习 ， 让 大 模型 


学 会 如 何 使 用 预 训练 阶段 注入 的 知 
大 模型 价值 观 与 人 类 对 齐 ， 
段 的 产物 ， 根 据 本 文 的 评测 结果 也 可 以 


而 是 对 话 能 力 不 足 。 


in 
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当然 , 一 些 表现 异常 优异 的 模型 也 带 来 了 当前 大 模型 评测 的 男 一 个 挑战 , 1 
FE 能 是 其 本 身 能 力 还 是 训练 数据 的 特殊 化 导 
和 更 为 全 面 准 确 的 大 模型 评价 体系 ， 


训练 数据 的 封闭 | 


E, 无 法 判断 模型 表现 日 
致 。 这 就 带 来 了 两 个 方面 吸 待 解决 


神经 网 络 发 展 至 今 ， 


使 模型 


\ 备 更 加 多 样 的 外 


其 输出 更 符合 人 类 偏好 。 当 前 旨 


的 优越 怕 
的 问题 , 模型 可 解释 


当前 模型 可 解释 性 看 


能 力 的 评测 体系 ， 


通过 定量 指标 进行 
证 。 


认可 的 


评价 a 


可 解释 性 仍然 是 
问题 ， 大 模型 “涌现 ”能 力 的 根源 、 如 何 对 大 模型 ; 
FEI BR EP, ARI 
但 仍 存在 一 定 的 不 足 之 处 ， 
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Abstract: [Purpose/Significance] This paper starts from the field of humanities and social sciences, 
and compares the model performance of humanities and social sciences from the aspects of basic 
knowledge and academic texts of humanities and social sciences. It aims to provide a systematic 
large language model evaluation benchmark for the field of humanities and social sciences for the 
reference of researchers in humanities and social sciences related fields. [Methods/Processes] 
Seven evaluation tasks related to the field of humanities and social sciences were designed and 
corresponding indicators were selected. On this basis, the current open-source and high- 
performance general-purpose domain Chinese large language models were selected to complete the 
domain-specific tasks in the form of questions and answers by invoking the local models, and their 
performance in the field of humanities and social sciences was quantitatively evaluated by selecting 
relevant indicators. [Results/Conclusions] The evaluation results show that among the open-source 
models selected in this paper, Qwen has the best performance, followed by Baichuan2, InternLM, 
and Atom is the worst performer in both the base model and the dialog model; moreover, in most 
cases, the dialog model shows more superior performance compared to the base model. 
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